查看原文
其他

基本无害 | 因果识别的比照基准——理想实验(1)

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第二章 理想的实验第一节 选择性问题



正文共2562个字,预计阅读时间10分钟。感谢阅读!

原文:2.1节


有个道理很重要也很普遍,那就是事情往往和表面上看起来的不一样。举例来说,在名叫地球的这颗行星上,人类总是认为他们比海豚聪明,因为人类的成就众多——轮子了,纽约了,战争了,等等等等——而海豚从头到尾却只在水里游来游去,享受美好时光。但是反过来,海豚也始终相信它们比人类要聪明得多——原因则完全相同。实际上,地球上只有一个物种比海豚更加聪明,他们把大量时间消耗在行为研究实验室里,在铁环里一圈圈跑,对人类施以精密但又微妙的试验。人类则再次彻底误读了人类与他们之间的关系,但这完全符合这些家伙的计划。

——道格拉斯·亚当斯,《银河系搭车客指南》

最可信、最有影响力的研究设计,是采用随机分配的研究设计。1962年设计的一场随机实验——佩里学前项目(Perry preschool project),就是一个恰当的例子。这个项目旨在评估一项早期干预方案的效果,参与这一方案的是密歇根州伊普斯兰蒂市的123名学龄前黑人儿童。佩里处理组被随机分配到一项强化干预,即需要接受学前教育和家访。佩里实验的规模虽小,但设计精巧,其影响极为深远。这项实验持续跟踪调查到1993年,这一年参与者们已经27岁。有数十个学术研究引用或使用了佩里项目的成果(例如可参看:Barnett,1992)。最重要的是,佩里项目为启动于1964年的大规模学前教育计划提供了智识上的基础,这项学前教育计划使数百万美国儿童受益(而且还将继续使更多的儿童受益)[1]

2.1 选择性问题

我们花点时间以更正式的方式讨论实验在揭示因果效应方面所起的作用。假设你对因果关系的“如果-那么”问题感兴趣,具体来说,我们来看这样一个简单的例子:医院让人们变得更健康吗?就我们的目的而言,这个例子有些寓言的性质,但它与卫生经济学家关心的那种因果关系问题惊人地接近。为使这个问题更符合实际,假设我们正在研究一个贫穷的老年人群,他们到医院急诊室接受基础的保健服务。其中有些病人被送进了医院接受住院治疗。住院所需的这类护理服务费用昂贵,还会挤占医院的医疗设施,而且可能不是非常有效(例如可参看:Grumbach、Keane和Bindman,1993)。事实上,那些本就身体欠佳的人与其他病人接触,对他们的健康产生的负面影响可能要更大。
由于住院患者得到了许多有价值的医疗服务,医院对病人健康是否有效这个问题的答案似乎仍然是肯定的。但数据会支持这一点吗?对于一个有一定生活经验的人来说,对去过医院的人和没有去过医院的人的健康状况进行比较,是一种很自然的处理。国家健康访谈调查(NHIS)就包含有进行这类比较所需的信息。具体来说,它包括这样一个问题:“在过去12个月里,受访者在医院入院住过夜吗?”这个问题我们可以用来识别最近住过院的人。NHIS还问过这样一个问题:“你认为你的健康状况总体是极好、很好、好、一般还是差呢?”
下表显示了住过院的患者和未住院的人的健康状况均值(健康状况差赋值1,健康状况极好赋值5,资料来自NHIS(2005))
组别样本规模健康状况均值标准误
住过院7,7743.210.014
未住院90,0493.930.003
二者均值之差是0.72,说明差异很大,t统计量是58.9,说明这一对比非常显著,该表表明,未住院的人显然比住过院的人更加健康。
从表面上看,这一结果表明住过医院会使人病情加重。由于医院里满是可能感染我们的病人、可能会伤害我们的危险医疗器械和化学药剂,所以这个答案未必不是正确答案。但是,我们还是很容易就可以看出来,为什么这种表面的比较并不合适:那些去过医院的人可能一开始就不太健康。此外,那些寻求医疗而住院的患者平均来说也不如一开始就未住院的人健康,尽管他们比不住院之前的健康状况也许要更好。
为了更精确地描述这个问题,我们可以把是否曾住院治疗用一个二元随机变量来描述。健康状况的指标是我们感兴趣的结果,用表示。们的问题是,是否受住院治疗的影响为了回答这个问题,假设我们可以设想,一些住过院的患者如果没住院的话会发生什么;同样,我们还可以设想相反的情况。因此,对于任何个人来说,都有两个潜在的健康变量:
换言之,是一个人倘若没有住过院的健康状况,不管他实际上到底住没住过院,而是一个人倘若住过院的健康状况,也不管他实际上到底住没住过院。我们想知道之间的差值是多少,这可以被说成是个体住院治疗的因果效应。如果我们能够回到过去,改变一个人的治疗状态,这就是我们要测量的因果效应[2]
我们所观察到的结果,按照潜在结果,可以写成下式:

这个表示法是很有用的,因为是一个人接受住院治疗的因果效应。一般情况下,总体中可能存在的分布,因此处理效应(treatment effect)也许因人而异。但是,由于我们从没有看到过一个人的两种潜在结果,所以,我们必须通过比较住过院的患者和未住院的人的平均健康状况来了解住院治疗的效果。
一个住院情况均值的单纯比较,可以告诉我们一些潜在结果的内容,虽然这并不一定是我们想要知道的部分。以住院情况为条件的健康状况均值的比较,通过下面这个方程,形式上与平均因果效应联系了起来:
其中,下面这一项
住院治疗对那些住过院的人的平均因果效应。这一项是住过院的人的健康水平(即)与倘若他们没有去住院而会呈现的健康水平(即)之间的平均值之差。不过,所观察到的健康状况之差却为这一因果效应多加上了一项,这就是选择性偏差(selection bias),即那些住过院的人和没有住过院的人之间平均的值的差。由于生病的人比健康的人更有可能寻求治疗,所以那些住过院的人其值要更低,这使得本例中的选择性偏差为负。选择性偏差可能非常大(以绝对值表示),以至会完全掩盖积极的治疗效果。大多数实证经济学研究的目标,就是克服选择性偏差,从而对像这样的变量的因果效应作出说明[3]



注释
[1]

佩里项目的数据持续受到关注,尤其是在政策兴趣重新回到早期教育的情况下,该数据更加受重视。迈克尔·安德森(Anderson,2008)最近重新开展的一项分析文章,证实了佩里项目许多最初的研究发现,虽然安德森也表明佩里项目的总体积极性完全是由对女孩的影响所导致的。佩里项目的干预方案,似乎对男孩没有什么帮助。

[2]

潜在结果思想是现代因果效应研究的基石。提出这一思想的重要参考文献是Rubin(1974,1977)和Holland(1986),后者把包含潜在结果的因果框架称为Rubin因果模型。

[3]

本节标志着我们第一次使用条件期望运算符(例如)。我们用它来表示一个随机变量的总体(或无限大样本)平均值,而另一个随机变量的值保持不变。更为正式和详细的定义见本书第3章。



本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。





星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧


往期推荐


数据治理 | 实操性强的Pandas数据匹配教程!

数据治理 | 数据分析与清洗工具:Pandas 数据合并

数据治理 | 数据分析与清洗工具:Pandas 创建新字段( 赠送本文同款数据!)

数据治理 | 数据分析与清洗工具:Pandas 数据类型转换(赠送本文同款数据!!)

数据治理 | 数据分析与清洗工具:Pandas 缺失值与重复值处理

数据治理 | 数据分析与清洗工具:用Pandas快速选出你的“心之所向”

数据治理 | 数据分析与清洗工具:Pandas 数据选取与修改






数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


推荐 | 《基本无害的计量经济学——实证研究者指南(重译本)》


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存